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Verfahren und Vorrichtungen zur koartikulationsgerechten 
Konkatenation von Audiosegmenten sowie 
Vorrichtungen zur Bereitstellung 
koartikulationsgerecht konkatenierter Audiodaten 



Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur 
Konkatenation von Audiosegmenten zur Erzeugung synthetisierter 
akustischer Daten, insbesondere synthetisierter Sprache, gemaB 
den Anspriichen 1 und 16, Des weiteren betrifft die Erfindung 
synthetisierte Sprachsignale gemaB Anspruch 32, die durch die 
erf indungsgemafce koartikulationsgerechte Konkatenation von 
Sprachsegmenten erzeugt wurden, sowie einen Datentrager gemaB 
Anspruch 45, der ein Computerprogramm zur erf indungsgemafien 
Herstellung von synthetisierten akustischen Daten, insbesondere 
synthetisierter Sprache, enthalt. 

Zusatzlich betrifft die Erfindung einen Datenspeicher gemaB 
Anspruch 58, der Audiosegmente enthalt, die zur erf indungsgema- 
Ben koartikulationsgerechten Konkatenation geeignet sind, und 
einen Tontrager nach Anspruch 67, der erf indungsgemaB syntheti- 
sierte akustische Daten enthalt sowie einen Tontrager nach 
Anspruch 69, der synthetisierte Sprachdaten gemaB Anspruch 32 
enthalt, 

Es ist zu betonen, da/3 sowohl der im folgenden dargestellte 
Stand der Technik als auch die vorliegenden Erfindung den 
gesamten Bereich der Synthese von akustischen Daten durch 
Konkatenation einzelner, auf beliebige Art und Weise erhaltene 
Audiosegmente betrifft, Aber urn die Diskussion des Standes der 
Technik sowie die Beschreibung der vorliegenden Erfindung zu 
vereinf achen, beziehen sich die folgenden Ausfiihrungen speziell 
auf synthetisierte Sprachdaten durch Konkatenation einzelner 
Sprachsegmente . 
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In den letzten Jahren hat sich im Bereich der Sprachsynthese 
der datenbasierte Ansatz gegeniiber dem regelbasierten Ansatz 
durchgesetzt und ist in verschiedenen Verfahren und Systemen 
zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz 
prinzipiell eine bessere Sprachsynthese ermoglicht, ist es fur 
dessen Umsetzung notwendig, das gesamte zur Spracherzeugung 
notwendige Wissen explizit zu formulieren, d.h. die zu synthe- 
tisierende Sprache formal zu modellieren. Da die bekannten 
Sprachmodellierungen Vereinf achung der zu synthetisierenden 
Sprache aufweisen, ist die Sprachqualitat der so erzeugten 
Sprache nicht ausreichend. 

Daher wird in zunehmenden Ma3e eine datenbasierte Sprachsynthe- 
se durchgef iihrt , bei der aus einer einzelne Sprachsegmente 
aufweisenden Datenbasis entsprechende Segmente ausgewahlt und 
miteinander verkniipft (konkateniert ) werden. Die Sprachqualitat 
hangt hierbei in erster Linie von der Zahl und Art der verfiig- 
baren Sprachsegmente ab, denn es kann nur Sprache synthetisiert 
werden, die durch Sprachsegmente in der Datenbasis wiedergeben 
ist. Urn die Zahl der vorzusehenden Sprachsegmente zu minimieren 
und dennoch eine synthetisierte Sprache hoher Qualitat zu 
erzeugen, sind verschieden Verfahren bekannt, die eine Verkniip- 
fung (Konkatenation) der Sprachsegmente nach komplexen Regeln 
durchfiihren. 

Unter Verwendung solcher Verfahren bzw. entsprechender Vorrich- 
tungen kann ein Inventar, d.h. eine die Sprachsegmente umfas- 
sende Datenbasis, verwendet werden, das vollstandig und 
handhabbar ist* Ein Inventar ist vollstandig, wenn damit jede 
Lautfolge der zu synthetisierenden Sprache erzeugt werden kann, 
und ist handhabbar, wenn die Zahl und Art der Daten des Inven- 
tars mit den technisch verfiigbaren Mitteln in einer gewiinschten 
Weise verarbeitet werden kann. Dariiber hinaus muB ein solches 
Verfahren gewahrleisten , daB die Konkatenation der einzelnen 
Inventarelemente eine synthetisierte Sprache erzeugt, die sich 
von einer natiirlich gesprochenen Sprache moglichst wenig unter- 
scheidet. Hierfur muB eine synthetisierte Sprache fliissig sein 
und die gleichen artikulator ischen Effekte einer natiirlichen 
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Sprache aufweisen. Hier kommen den sogenannten koartikulatori- 
schen Effekten, d.h. der gegenseitigen Beeinf lussung von 
Sprachlauten, eine besondere Bedeutung zu, Daher sollten die 
Inventarelemente so beschaffen sein, das sie die Koartikulation 
einzelner auf einanderf olgender Sprachlaute beriicksichtigen. Des 
weiteren sollte ein Verfahren zu Konkatenation der Inventarele- 
mente, die Eleraente unter Beriicksichtigung der Koartikulation 
einzelner auf einanderf olgender Sprachlaute sowie der iibergeord- 
neten Koartikulation mehrerer auf einanderf olgender Sprachlaute, 
auch iiber Wort- und Satzgrenzen hinweg, verketten. 

Vor der Darstellung des Standes der Technik werden im folgenden 
einige zum besseren Verstandnis notwendige Begriffe aus dem 
Bereich der Sprachsynthese erlautert: 

- Ein Phonem ist die kleinste formal beschreibbare Lauteinheit, 
wobei i. allg. die formale Beschreibung durch Lautschrif tzei- 
chen erfolgt. 

- Ein Phon ist die kleinste Lauteinheit, die in Form eines 
Audiosegmentes speicherbar ist, und stellt die akustische 
Realisierung eines Phonems dar. Die Phone werden in statische 
und dynamische Phone unterteilt. 

- Zu den statischen Phonen zahlen Vokale, Diphtonge, Nasale, 
Laterale, Vibranten und Frikative. 

- Zu den dynamischen Phonen zahlen Plosive, Affrikate, Glottal- 
stops und geschlagene Laute. 

- Die Koartikulation bezeichnet das Phanomen, da3 ein Phon 
durch vorgelagerte und nachgelagerte Phone beeinfluBt wird, 
wobei die Koartikulation zwischen unmittelbar benachbarten 
Phonen auftritt, aber sich auch uber eine Folge mehrerer Phone 
erstrecken kann (Beispielsweise bei einer Lippenrundung) ♦ 

Daher kann ein Phon in drei Bereiche unterteilt werden (siehe 
auch Figur lb) : 

- Der Anf angs-Koartikulationsbereich umfaftt den Bereich vom 
Beginn des Phons bis zum Ende der Koartikulation aufgrund eines 
vorgelagerten Phons . 
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- Der Solo-Artikulat ionsbereich , ist der Bereich des Phons, der 
nicht durch ein vor- oder nachgelagertes Phon beeinfluBt ist, 

- Der End-Koartikulat ionsbereich umfaBt den Bereich vom Beginn 
der Koartikulation aufgrund eines nachgelagerten Phons bis zum 
Ende des Phons. 

- Ein Polyphon ist eine Folge von Phonen. 

- Die Elemente eines Inventars sind in kodierter Form gespei- 
cherte Audiosegmente, die Phone, Teile von Phonen oder Polypho- 
ne wiedergeben. Zur besseren Verstandnis des moglichen Aufbau 
eines Elementarelementes sei hier auf die Figur 2a, die ein 
herkommliches Audiosegment zeigt, und die Figuren 2b-21 verwie- 
sen, in denen erf indungsgemaBe Audiosegmente gezeigt sind. Er- 
ganzend ist zu erwahnen, da6 Audiosegmente auch aus kleineren 
oder groBeren Audiosegmenten gebildet werden konnen, die in dem 
Inventar oder einer Datenbank enthalten sind. Des weiteren 
konnen Audiosegmente auch in einer transf ormierten Form (z.B. 
einer fouriertransf ormierten Form) in dem Inventar oder einer 
Datenbank vorliegen. 

- Unter Konkatenation versteht man das Aneinanderf iigen zweier 
Inventarelemente . 

- Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei 
Audiodaten aneinandergef ugt werden. 

Die Konkatenation kann auf verschiedene Arten erfolgen, z.B. 
mit einem Crossf ade oder einem Hardfade (siehe auch Figuren 3a- 
3d) : 

- Bei einem Crossf ade werden ein zeitlich hinterer Bereich 
eines ersten Inventarelementes sowie ein zeitlich vorderer 
Bereich eines zweiten Inventarelementes geeignet gewichtet, und 
danach werden diese beiden Bereiche iiberlappend so addiert, daB 
maximal der zeitliche kiirzer der beiden Bereichen von dem 
zeitlich langeren der beiden Bereiche vollstandig liberlappt 
wird. 

- Bei einem Hardfade wird ein zeitlich hinterer Bereich eines 
ersten Inventarelementes und ein zeitlich vorderer Bereich 
eines zweiten Inventarelementes geeignet gewichtet, wobei diese 
beiden Inventarelemente so aneinandergef ugt werden, daB sich 
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der hintere Bereich des ersten Inventarelementes und der vorde- 
re Bereich des zweiten Inventarelementes nicht uberlappen. 

Der Koartikulationsbereich macht sich vor allem dadurch bemerk- 
bar, daB eine Konkatenation darin mit Unstetigkeiten (z.B. 
Spektralsprungen) verbunden ist. Deswegen wird der Konkatenati- 
onsmoment vorzugsweise in der Umgebung der Grenze des Solo- 
Artikulationsbereiches zum Koartikulationsbereich gewahlt. 

Im allgemeinen werden Inventarelemente durch die Aufnahme von 
real gesprochener Sprache erzeugt. In Abhangigkeit des Trai- 
ningsgrades des inventarauf bauenden Sprechers, d.h. seiner 
Fahigkeit die auf zunehmende Sprache zu kontrollieren (z.B. die 
Tonhohe der Sprache zu kontrollieren oder exakt auf einer 
Tonhohe zu sprechen) , ist es moglich, gleiche oder ahnliche 
Inventarelemente zu erzeugen, die verschobene Grenzen zwischen 
den Solo-Artikulationsbereichen und Koartikulationsbereichen 
haben. Dadurch ergeben sich wesentlich mehr Moglichkeiten, die 
Konkatenationspunkte an verschiedenen Stellen zu plazieren. In 
der Folge kann die Qualitat einer zu synthetisierenden Sprache 
deutlich verbessert werden. 

Erganzend sei zu erwahnen, daiS streng genommen ein Hardfade 
einen Grenzfall eines Crossfades darstellt, bei dem eine Uber- 
lappung eines zeitlich hinteren Bereiches eines ersten Inventa- 
relementes und eines zeitlich vorderen Bereiches eines zweiten 
Inventarelementes eine Lange Null hat. Dies erlaubt es in be- 
stimmten, z.B. aulierst zeitkritischen Anwendungen einen Cross- 
fade durch einen Hardfade zu ersetzen, wobei eine solche Vorge- 
hensweise genau abzuwagen ist, da diese zu deutlichen Quali- 
tatseinbuBen bei der Konkatenation von Inventarelementen fuhrt, 
die eigentlich durch einen Crossfade zu konkatenieren sind. 

- Unter Prosodie versteht man die Veranderungen der Sprachfre- 
quenz und des Sprachrhythmus , die bei gesprochenen Worten bzw. 
Satzen auftreten. Die Beriicksichtigung solcher prosodischer 
Informationen ist bei der Sprachsynthese notwendig, um eine 
naturliche Wort- bzw. Satzmelodie zu erzeugen. 
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Aus WO 95/30193 ist ein Verfahren und eine Vorrichtung zur 
Umwandlung von Text in horbare Sprachsignale unter Verwendung 
eines neuronalen Netzwerkes bekannt. Hierfiir wird der in Spra- 
che umzuwandelnde Text mit einer Konvertiereinheit in eine 
Folge von Phonemen umgewandelt, wobei zusatzlich Inf ormationen 
iiber die syntaktischen Grenzen des Textes und die Betonung der 
einzelnen syntaktischen Komponenten des Textes erzeugt werden. 
Diese werden zusammen mit den Phonemen an eine Einrichtung 
weitergeleitet , die regelbasiert die Dauer der Aussprache der 
einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem 
einzelnen Phonem in Verbindung mit den entsprechenden syntakti- 
schen und zeitlichen Information eine geeignet Eingabe fur das 
neuronale Netzwerk, wobei diese Eingabe fur das neuronale Netz 
auch die entsprechenden prosodischen Inf ormationen fur die 
gesamte Phonemfolge umfaBt. Das neuronale Netz wahlt aus den 
verfiigbaren Audiosegmenten nun die aus, die die eingegebenen 
Phoneme am besten wiedergeben, und verkettet diese Audiosegmen- 
te entsprechend. Bei dieser Verkettung werden die einzelnen 
Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an 
vor- und nachgelagerte Audiosegmente unter Beriicksichtigung der 
prosodischen Inf ormationen der zu synthetisierenden Sprache 
angepa£t und zeitlich auf einanderf olgend miteinander verbunden. 
Eine Veranderung einzelner Bereiche der Audiosegmente ist hier 
nicht beschrieben. 

Zur Erzeugung der fur dieses Verfahren erf orderlichen Audioseg- 
mente ist das neuronale Netzwerk zuerst zu trainieren, indem 
natiirlich gesprochene Sprache in Phone oder Phonfolgen unter- 
teilt wird und diesen Phonen oder Phonfolgen entsprechende 
Phonem oder Phonemfolgen in Form von Audiosegmenten zugeordnet 
werden. Da dieses Verfahren nur eine Veranderung von einzelnen 
Audiosegmenten, aber keine Veranderung einzelner Bereiche eines 
Audiosegmentes vorsieht, mu6 das neuronale Netzwerk mit mog- 
lichst vielen verschiedenen Phonen oder Phonfolgen trainiert 
werden, um beliebige Texte in synthetisierte natiirlich klingen- 
de Sprache umzuwandeln. Dies kann sich je nach Anwendungsf all 
sehr aufwendig gestalten. Auf der anderen Seite kann ein unzu- 
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reichender TrainingsprozeB des neuronalen Netzes die Qualitat 
der zu synthetisierenden Sprache negativ beeinf lussen. Des 
weiteren ist es bei dem hier beschriebene Verfahren nicht 
moglich, den Konkatenationsmoment der einzelnen Audiosegmente 
in Abhangigkeit vorgelagerter Oder nachgelagerter Audiosegmente 
zu bestimmen, urn so eine koartikulationsgerechte Konkatenation 
durchzuf uhren . 

In US-5,524,172 ist eine Vorrichtung zur Erzeugung syntheti- 
sierter Sprache beschrieben, die das sogenannte Diphonverf ahren 
nutzt, Hier wird ein Text, der in synthetisierte Sprache umge- 
wandelt werden soil, in Phonemf olgen unterteilt, wobei jeder 
Phonemfolge entsprechende prosodische Inf ormationen zugeordnet 
werden. Aus einer Datenbank, die Audiosegmente in Form von 
Diphonen enthalt, werden fur jedes Phonem der Folge zwei das 
Phonem wiedergebende Diphone ausgewahlt und unter Berucksichti- 
gung der entsprechenden prosodischen Inf ormationen konka- 
teniert. Bei der Konkatenation werden die beiden Diphone 
jeweils mit Hilfe eines geeigneten Filters gewichtet und die 
Dauer und Tonhohe beider Diphone so verandert, daft bei der 
Verkettung der Diphone eine synthetisierte Phonfolge erzeugt 
wird, der en Dauer und Tonhohe der Dauer und Tonhohe der ge- 
wunschten Phonemf olge entspricht. Bei der Konkatenation werden 
die einzelnen Diphone so addiert, da/3 sich ein zeitlich hinte- 
rer Bereich eines ersten Diphones und ein zeitlich vorderer 
Bereich eines zweiten Diphones uberlappen, wobei der Konkatena- 
tionsmoment generell im Bereich stationaren Bereiche der ein- 
zelnen Diphone liegt (siehe Figur 2a) . Da eine Variation des 
Konkatenationsmomentes unter Berucksichtigung der Koartikulati- 
on auf einanderf olgender Audiosegmente (Diphone) hier nicht 
vorgesehen ist, kann die Qualitat (Naturlichkeit und Verstand- 
lichkeit) einer so synthetisierten Sprache negativ beeinfluBt 
werden . 

Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in 
EP-0,813,184 Al zu finden. Auch hier wird ein in synthetisierte 
Sprache umzuwandelnder Text in einzelne Phoneme Oder Phonemfol- 
gen unterteilt und aus einer Datenbank entsprechende Audioseg- 
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mente ausgewahlt und konkateniert . Um eine Verbesserung der 
synthetisierten Sprache zu erzielen, sind bei diesem Verfahren 
zwei Ansatze, die sich vom bisher diskutierten Stand der Tech- 
nik unterscheiden, umgesetzt worden. Unter Verwendung eines 
5 Glattungsf ilters, der die tief erf requenten harmonischen Fre- 
quenzanteile eines vorgelagerten und eines nachgelagerten 
Audiosegmentes berucksichtigt , soil der Ubergang von dem vorge- 
lagerten Audiosegment zu dem nachgelagerten Audiosegment opti- 
miert werden, indem ein zeitlich hinterer Bereich des 

10 vorgelagerten Audiosegmentes und ein zeitlich vorderer Bereich 
des nachgelagerten Audiosegmentes im Frequenzbereich aufeinan- 

^ der abgestimmt werden , Des weiteren stellt die Datenbank Audio- 

W segmente zur Verfiigung, die sich leicht unterscheiden, aber zur 
Synthetisierung desselben Phonems geeignet sind* Auf diese 

15 Weise soli die natvirliche Variation der Sprache nachgebildet 

werden, um eine hohere Qualitat der synthetisierten Sprache zu 
erreichen. Sowohl die Verwendung des Glattungsf ilter als auch 
die Auswahl aus einer Menge unterschiedlicher Audiosegmente zur 
Realisierung eines Phonems erfordert bei einer Umsetzung dieses 

20 Verfahrenes eine hohe Rechenleistung der verwendeten Systemkom- 
ponenten. Aufterdem steigt der Umfang der Datenbank aufgrund der 
erhohten Zahl der vorgesehenen Audiosegmente, Des weiteren ist 
auch bei diesem Verfahren eine koartikulationsabhangige Wahl 

^ des Konkatenationsmomentes einzelner Audiosegmente nicht vorge- 

B sehen, wodurch die Qualitat der synthetisierten Sprache redu- 
ziert werden kann. 

Zusammenf assend ist zu sagen, da3 es der Stand der Technik zwar 
erlaubt, beliebige Phonemfolgen zu synthetisieren, aber die so 
30 synthetisierten Phonemfolgen haben keine authentische Sprach- 
qualitat. Eine synthetisierte Phonemfolge hat eine authetische 
Sprachqualitat , wenn sie von der gleichen Phonemfolge, die von 
einem realen Sprecher gesprochen wurde, durch einen Horer nicht 
unterschieden werden kann. 

35 

Es sind auch Verfahren bekannt, die ein Inventar benutzen, das 
vollstandige Worte und/oder Satze in authentischer Sprachquali- 
tat als Inventarelemente enthalt. Diese Elemente werden zur 
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Sprachsynthese in einer gewiinschten Reihenfolge hintereinander 
gesetzt, wobei die Moglichkeiten unterschiedliche Sprachsequen- 
zen in hohem Ma3e von dem Umfang eines solchen Inventars limi- 
tiert werden. Die Synthese beliebiger Phonemf olgen ist mit 
diesen Verfahren nicht moglich. 

Daher ist es eine Aufgabe der vorliegenden Erfindung ein Ver- 
fahren und eine entsprechende Vorrichtung zur Verfiigung zu 
stellen, die die Probleme des Standes der Technik beseitigen 
und die Erzeugung synthetisierter akustischer Daten, insbeson- 
dere synthetisierter Sprachdaten, ermoglichen, die sich fur 
einen Horer nicht von entsprechenden natiirlichen akustischen 
Daten, insbesondere naturlich gesprochener Sprache, unterschei- 
den. Die mit der Erfindung synthetisierten akustischen Daten, 
insbesondere synthetisierte Sprachdaten sollen eine authenti- 
sche akustische Qualitat, insbesondere eine authentische 
Sprachqualitat auf weisen . 

Zu LSsung dieser Aufgabe sieht die Erfindung ein Verfahren 
gemafc Anspruch 1 und eine Vorrichtung gemafc Anspruch 16 vor. 
Dabei wird zur Erzeugung synthetisierter akustischer Daten, die 
aus einer Folge von Lauteinheiten bestehen, durch Konkatenation 
von Audiosegmenten der Moment der Konkatenation zweier Audio- 
segmente in Abhangigkeit von Eigenschaf ten der zu verkniipf enden 
Audiosegmente, insbesondere der die beiden Audiosegmente be- 
treff enden Koartikulationsef f ekte bestimmt. Auf diese Weise 
wird eine Sprachqualitat erreicht, die mit dem Stand der Tech- 
nik nicht erzielbar ist. Dabei ist die erf orderliche Rechenlei- 
stung nicht hoher als beim Stand der Technik. 

Eine weitere Aufgabe der Erfindung ist es, bei der Synthese 
akustischer Daten die Variationen nachzubilden, die bei ent- 
sprechenden natiirlichen akustischen Daten zu finden sind. Daher 
sieht das erf indungsgemafte Verfahren Schritte zur unterschied- 
lichen Auswahl der Audiosegmente nach den Anspruchen 2 oder 5 
sowie unterschiedliche Arten der Konkatenation nach den Anspru- 
chen 3 oder 4 vor. Ebenso stellt die erf indungsgemafce Vorrich- 
tung unterschiedliche Audiosegmente nach den Anspruchen 16 oder 
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20 zur Verfugung und ermoglicht unterschiedliche Konkatenati- 
onsarten nach den Anspriichen 18 oder 19, die in Abhangigkeit 
von Eigenschaf ten der zu verkettenden Audiosegmente gewahlt 
werden. So wird ein hdheres MaB an Natiirlichkeit der syntheti- 
sierten akustischen Daten erzielt. Vorzugsweise werden die 
Konkatenationen nach den Anspriichen 3 oder 4 unter Verwendung 
eines Crossfades oder eines Hardfades durchgeftihrt bzw. die 
Einrichtungen nach den Anspriichen 18 oder 19 sind zu Durchfuh- 
rung eines Crossfades oder Hardfades zu Konkatenation der 
Audiosegmente geeignet. 

Eine weitere Aufgabe der Erfindung ist es, die Konkatenation 
der einzelnen Audiosegmente zu optimieren, um die Erzeugung der 
synthetisierten akustischen Daten einfacher und schneller 
durchzufuhren. Zur Losung dieser Aufgabe umfafit das erfindungs- 
gemaBe Verfahren Schritte nach den Anspriichen 6, 7 oder 8, die 
es ermoglichen die Zahl der zur Datensynthetisierung notwendi- 
gen Audiosegmente zu reduzieren. In ahnlicher Weise stellt die 
erf indungsgemaBe Vorrichtungen Einrichtungen nach den Ansprii- 
chen 22, 23 oder 24 zur Verfugung, die Audiosegmente vorsieht 
oder erzeugt, die eine einfachere und schnellere Erzeugung 
synthetisierter akustischer Daten erlauben. Auf diese Weise 
kann auch mit Vorrichtungen, die eine geringere Rechenleistung 
haben (z.B. Anruf beantworter oder Autoleitsysteme) , ein synthe- 
tisierter Sprache hoher Qualitat erzeugt werden* Des weiteren 
sinkt der zur Speicherung des Inventars notwendige Speicherbe- 
darf. 

Eine andere Aufgabe der Erfindung ist es, bei der Erzeugung der 
synthetisierten akustischen Daten akustische Phanomene nachzu- 
bilden, die sich aufgrund einer gegenseitigen Beeinf lussung 
einzelner Segmente entsprechender natlirlicher akustischer Daten 
ergeben. Daher sieht das erf indungsgemaBe Verfahren Schritte 
nach den Anspriichen 9 oder 10 vor bzw. umfafct die erf indungsge- 
mafce Vorrichtung Einrichtungen nach den Anspriichen 25 oder 26, 
die zur Nachbildung dieser Phanomene geeignet sind. Insbesonde- 
re ist hier vorgesehen, einzelne Audiosegmente bzw, einzelne 
Bereiche der Audiosegmente in ihrer Frequenz, Dauer und Ampli- 
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tude(n) zu variieren. Werden mit der Erfindung synthetisierte 
Sprachdaten erzeugt, so werden zur LSsung dieser Aufgabe vor- 
zugsweise prosodische Informationen und/oder iibergeordnete 
Koartikulationsef f ekte berucksichtigt . 

Des weiteren soil die Erfindung ein Verfahren bzw. eine Vor- 
richtung zur Verfiigung stellen, die den Signalverlauf von 
synthetisierten akustischen Daten verbessern. Zur Losung dieser 
Aufgabe sieht die Erfindung ein Verfahren nach Anspruch 11 bzw, 
eine Vorrichtung nach Anspruch 2 7 vor, die es ermog lichen, den 
Konkatenationsmoment an Nullstellen der einzelnen zu verknup- 
fenden Audiosegmente zu legen. 

Eine weitere andere Aufgabe der Erfindung ist es, die Auswahl 
der Audiosegmente zur Erzeugung der synthetisierten akustischen 
Daten zu verbessern sowie deren Konkatenation effizienter zu 
gestalten. Diese Aufgabe wird durch die Nutzung heuristischen 
Wissens gelost, das die Auswahl, Variation und Konkatenation 
der Audiosegmente betrifft, wobei die Losung dieser Aufgabe 
durch einen erf indungsgemaBen Verf ahrensschritt nach Anspruch 
12 bzw. durch ein Merkmal der erf indungsgemaBen Vorrichtung 
nach Anspruch 28 ermoglicht wird. 

AuJierdem soil Erfindung die Nutzung der erzeugten synthetisier- 
ten akustischen Daten moglich machen. Daher werden unter Ver- 
wendung des erf indungsgemaften Verfahrens nach den Anspriichen 13 
Oder 14 synthetisierte akustische Daten zur Verfiigung gestellt, 
die zur Weiterverarbeitung in nachgelagerten Schritten geeignet 
sind, wobei diese Daten vorzugsweise in akustische Signale 
umwandelbar oder auf einem Datentrager speicherbar sind. Ebenso 
umfaBt die erf indungsgemaBe Vorrichtung Einrichtungen nach den 
Anspriichen 29 oder 30, die erzeugte synthetisierte akustische 
Daten zur Weiterverarbeitung vorbereiten, vorzugsweise zur 
akustischen Wiedergabe oder datentechnischen Speicherung. 

Ein weiteres Ziel dieser Erfindung ist es, synthetisierte 
Sprachdaten zu erzeugen, die sich von entsprechenden natur li- 
chen Sprachdaten nicht unterscheiden. Diese Aufgabe wird durch 
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das erf indungsgemafce Verfahren dadurch gelost, da/3 nach An- 
spruch 15 bei dessen Durchf uhrung Audiosegmente genutzt werden, 
die Phone Oder Polyphone wiedergeben, und durch die erfindungs- 
gema&e Vorrichtung dadurch gelost, dafi diese Einrichtungen nach 
Anspruch 31 umfaBt, die Audiosegmente in Form von Phonen Oder 
Polyphonen vorsehen und die zur Konkatenation dieser Audioseg- 
mente geeignet sind. 

Eine andere Aufgabe der Erfindung ist es, synthetisierte 
Sprachsignale zu Verfiigung zu stellen, die sich von bekannten 
synthetisierten Sprachsignalen dadurch unterscheiden, daB sie 
sich in ihrer Naturlichkeit und Verstandlichkeit nicht von 
realer Sprache unterscheiden. Hierfiir sieht Erfindung Sprachsi- 
gnale gemafc Anspruch 3 2 vor, die aus einer Folge von Phonen 
bestehen und durch Konkatenation von Audiosegmenten erzeugt 
werden, wobei der Moment der Konkatenation zweier Audiosegmente 
in Abhangigkeit von Eigenschaf ten der zu verkniipf enden Audio- 
segmente, insbesondere der die beiden Audiosegmente betref fen- 
den Koartikulationsef f ekte, bestimmt wird. 

Eine weitere Aufgabe der Erfindung ist es, synthetisierte 
Sprachsignale bereitzustellen, die die Variationen und gegen- 
seitige Beeinf lussungen widergeben, die bei entsprechenden 
naturlichen Sprachsignalen zu finden sind. Daher stellt die 
Erfindung auch synthetisierte Sprachsignale nach den Anspriichen 
33 bis 37 zur Verfiigung. Ein andere weitere Aufgabe ist es, 
Sprachsignale schneller zur Verfiigung zu stellen bzw. Sprachsi- 
gnale, zur Verfiigung zu stellen, die eine verringerte Anzahl 
von Konkatenationsmomenten haben, urn eine verbesserte Natur- 
lichkeit und Verstandlichkeit dieser Sprachsignale zu erzielen. 
Diese Aufgabe wird durch Sprachsignale gelost, die Merkmale 
nach den Anspriichen 37, 38 Oder 39 aufweisen. 

Zusatzlich ist es eine Aufgabe der Erfindung, Sprachsignale 
vorzusehen, die einen naturlichen SprachfluB, Sprachmelodie und 
Sprachrhythmus haben. Daher stellt die Erfindung auch Sprachsi- 
gnale zur Verfiigung, die Merkmale der Anspriiche 40 und/oder 41 
aufweisen. Vorzugsweise umfassen die synthetisierten Sprachsi- 
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gnale solche Audiosegmente in Form von Phonen oder Phonfolgen, 
die jeweils vor und/oder nach der Konkatenation in ihrer Ge- 
samtheit oder in einzelnen Bereichen in ihrer Frequenz, Dauer 
und Amplitude variiert werden. 

5 

Des weiteren sollen erf indungsgemafte Sprachsignale einen ver- 
besserten Signalverlauf aufweisen. Zur Losung dieser Aufgabe 
stellt die Erfindung Sprachsignale nach Anspruch 42 zur Verfu- 
gunng, die Konkatenationsmomente aufweisen, die an Nullstellen 
10 der zu verkniipf enden Audiosegmente liegt. 

^^^^k Des weiteren sollen die erf indungsgemafcen Sprachsignale eine 
^^^^ allgemeine Nutzung und/oder Weiterverarbeitung durch bekannte 
Verfahren oder Vorrichtungen, z.B. einem CD-Abspielgerat , 
15 erlauben. Deshalb sieht die Erfindung Sprachsignale nach den 
Anspriichen 43 und/oder 44 vor, die vorzugsweise in akustische 
Signale umwandelbar oder auf einem Datentrager speicherbar 
sind. 

20 Eine andere Aufgabe der Erfindung ist es synthetisierte akusti- 
sche Daten, insbesondere synthetisierte Sprachdaten, zu erzeu- 
gen, die sich von entsprechenden natiirlichen akustischen Daten 
nicht unterscheiden, wobei die Erzeugung dieser Daten unter 
Verwendung bekannter Vorrichtungen, z . B. einem Personal Compu- 
ter oder einem computergesteuerten Musikinstrument , durchge- 
fuhrt wird. Hierfiir sieht die Erfindung einen Datentrager nach 
Anspruch 45 vor, der ein Computerprogramm enthalt, das Audio- 
segmente auswahlt und durch Konkatenation zu synthetisierten 
akustischen Daten verkettet, wobei der Moment der Konkatenation 
30 zweier Audiosegmente in Abhangigkeit von Eigenschaf ten der zu 

verkniipf enden Audiosegmente, insbesondere der die beiden Audio- 
segmente betreffenden Koartikulationsef f ekte, bestimmt wird. 

Eine weitere Aufgabe der Erfindung ist es, bei der Synthese 
35 akustischer Daten unter Verwendung des Datentragers nach An- 
spruch 45 die Variationen nachzubilden , die bei entsprechenden 
natiirlichen akustischen Daten zu finden sind. Daher stellt die 
Erfindung einen Datentrager zur Verfiigung, der ein Computerpro- 
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gramm enthalt, das nach Anspriichen 46 und/oder 49 in Abhangig- 
keit der zu erzeugenden Daten Audiosegmente unterschiedlich 
auswahlt bzw. das nach den Anspriichen 47 und/oder 48 einzelne 
Audiosegmente in Abhangigkeit von Eigenschaf ten der zu verket- 
5 tenden Audiosegmente unterschiedlich konkateniert . 

Eine andere Aufgabe der Erfindung ist es, ein Computerprogramm 
vorzusehen, das die Konkatenation einzelner Audiosegmente 
optimiert, urn die Erzeugung der synthetisierten akustischen 
10 Daten einfacher und schneller durchzuf uhren. Diese Aufgabe wird 
durch einen erf indungsgemaBen Datentrager geldst, der ein 
Computerprogramm enthalt, das die Merkmale der Anspriiche 50 
und/oder 51 aufweist. 

Eine weitere andere Aufgabe der Erfindung ist es, mit Hilfe 
eines Computerprogrammes bei der Erzeugung der synthetisierten 
akustischen Daten die akustischen Phanomene nachzubilden, die 
sich aufgrund einer gegenseitigen Beeinf lussung einzelner 
Segmente entsprechender naturlicher akustischer Daten ergeben. 
Daher sieht die Erfindung einen Datentrager vor, der ein Compu- 
terprogramm mit den Merkmale der Anspriiche 51 und/oder 52 
enthalt. Vorzugsweise soli das Computerprogramm die Variation 
der Frequenzen, Dauer und Amplituden einzelner Audiosegmente 
bzw. einzelner Bereiche der Audiosegmente ermoglichen. Dient 
das Computerprogramm zur Erzeugung synthetisierter Sprachdaten, 
so werden zur Losung dieser Aufgabe vorzugsweise prosodische 
Inf ormationen und/oder iibergeordnete Koartikulationsef f ekte 
beriicks icht igt , 

30 AuBerdem soli die Erfindung ein Computerprogramm vorsehen, das 
eine Verbesserung des Signalverlauf es von synthetisierten 
akustischen Daten ermoglicht. Diese Aufgabe wird durch einen 
erf indungsgemaBen Datentrager gelost, der ein Computerprogramm 
mit den Merkmalen des Anspruches 53 enthalt. 




Eine zusatzliche Aufgabe der Erfindung ist es, ein Computerpro- 
gramm zur Verfugung zu stellen, das es erlaubt, die syntheti- 
sierte akustische Daten, insbesondere synthetisierte Sprach- 
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signale, zu erzeugen, wobei die Auswahl, Variation und Konka- 
tenation einzelner Audiosegmente nicht auf der Basis einer 
formalen Modellierung durchgefiihrt wird. Zur Losung stellt die 
Erfindung einen Datentrager nach Anspruch 54 bereit, der unter 
Verwendung eines darauf enthaltenen Computerprogrammes heuri- 
stisches Wissen implement iert , das die Auswahl, Variation 
und/oder Konkatenation einzelner Audiosegmente betrifft. Auf 
diese Weise ist es moglich mit zunehmender Dauer der Verwendung 
des Computerprogrammes eine immer hohere Qualitat, d.h. z.B. 
Naturlichkeit, der synthetisierten akustischen Daten zu errei- 
chen. 

AuBerdem soil ein erf indungsgemaBes Computerprogramm die Nut- 
zung und/oder Weiterverarbeitung der erzeugten synthetisierten 
akustischen Daten mit bekannten Vorrichtungen, z.B. einem 
Tonbandgerat , moglich machen. Zur Losung dieser Aufgabe umfaBt 
die Erfindung einen Datentrager, der ein Computerprogramm nach 
den Anspriichen 55 und/oder 56 enthalt, wobei das Computerpro- 
gramm vorzugsweise Daten erzeugt, die in akustische Signale 
umwandelbar oder auf einem Datentrager speicherbar sind. 

Dariiber hinaus ist es eine Aufgabe der Erfindung mit Hilfe 
eines Computerprogrammes synthetisierte Sprachdaten zu erzeu- 
gen, die sich von entsprechenden natur lichen Sprachdaten nicht 
unterscheiden. Hierzu stellte die Erfindung einen Datentrager 
nach Anspruch 57 bereit, der ein Computerprogramm enthalt, das 
Audiosegmente, die Phone oder Polyphone wiedergeben, zu synthe- 
tischen Sprachsignalen konkateniert . 

Eine andere Aufgabe der Erfindung ist es, ein Audiosegmente 
umfassendes Inventar und insbesondere ein Sprachsegmente umfas- 
sendes Inventar vorzusehen, mit den synthetisierte akustische 
Daten, insbesondere synthetisierte Sprachdaten, erzeugt werden 
konnen, die sich von entsprechenden natlirlichen akustischen 
Daten nicht unterscheiden. Zur Losung dieser Aufgabe sieht die 
Erfindung einen Datenspeicher nach Anspruch 58 vor, der Audio- 
segmente enthalt, die geeignet sind, urn erf indungsgemaB zu 
synthetisierten akustischen Daten konkateniert zu werden. 
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Vorzugsweise enthalt ein solcher Datentrager Audiosegmente, die 
nach Anspruch 59 Phone und/oder nach Anspruch 60 Polyphone 
wiedergeben. Des weiteren ist zu bevorzugen, daB der Daten- 
trager Audiosegmente enthalt, die die Merkmale der Anspruches 
61 und/oder 62 aufweisen. 

Eine weitere andere Aufgabe ist es, ein Inventar zur Verfugung 
zu stellen, das die Erzeugung synthetisierter akustischer Daten 
und insbesondere die Erzeugung synthetisierter Sprachdaten 
erlaubt, die unter Beriicksichtigung von akustischer Effekte 
durchgefiihrt wird, die auf eine gegenseitige Beeinf lussung der 
verwendeten Audiosegmente zuriickzuf uhren sind. Daher umfaBt der 
Datentrager zusatzliche die Audiosegmente betreffende Informa- 
tionen nach den Anspriichen 63 und/oder 64. Vorzugsweise betref- 
fen diese Inf ormationen die Variation der Frequenzen, Dauer und 
Amplituden einzelner Audiosegmente Oder einzelner Bereiche von 
Audiosegmenten. Werden Audiosegmente verwendet, die Phone 
und/oder Polyphone wiedergeben, so sind diese Inf ormationen 
vorzugsweise prosodische Inf ormationen und/oder ubergeordnete 
Koartikulationsphanomene betref f enden Inf ormationen . AuBerdem 
soli ein Datenspeicher zur Verfiigung gestellt werden, dessen 
Inventar eine Verbesserung des Signalverlauf es synthetisierter 
akustischer Daten ermoglicht. Diese Aufgabe wird durch Verwen- 
dung eines Datentragers nach Anspruch 65 gelost. Des weiteren 
ist hierfur zu bevorzugen, daB diese Information zusatzlich 
Merkmale des Anspruches 66 aufweisen, um durch die Nutzung 
heuristischen Wissens, das die Auswahl, Variation und/oder 
Konkatenation einzelner Audiosegmente betrifft, die Qualitat 
der erzeugten synthetisierten akustischen Daten und insbesonde- 
re der erzeugten synthetisierten Sprachdaten zu verbessern. 

SchlieBlich ist es eine Aufgabe der Erfindung, erf indungsgemaBe 
synthetisierte akustische Daten, insbesondere synthetisierte 
Sprachdaten, zur Verfugung zu stellen, die mit herkommlichen 
bekannten Vorrichtungen , beispielsweise einem Tonbandgerat Oder 
einer PC-Audiokarte, genutzt werden konnen. Diese Aufgabe wird 
durch die Bereitstellung eine Tontragers nach den Anspriichen 
67, 68 bzw. 69 gelost. 
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Weitere Eigenschaf ten, Merkmale, Vorteile oder Abwandlungen der 
Erfindung werden anhand der nachf olgenden Beschreibung erlau- 
tert. Dabei zeigt: 



10 




15 



20 




30 



35 



Figur la: 

Figur lb: 
Figur 2a: 

Figur 2b: 
Figur 2c: 
Figur 2d: 



Figur 2e: 



Figur 2f: 



Figur 2g: 



Figur 2h: 



Schematische Darstellung einer 
erf indungsgemaften Vorrichtung zur Erzeugung 
synthetisierter akustischer Daten ; 
Struktur eines Phons; 

Struktur eines herkommlichen Audiosegmentes 
nach dem Stand der Technik; 

Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Phon mit nachgelagerten Koartikualtions- 
bereichen wiedergibt; 

Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Phon mit vorgelagerten Koartikualtions- 
bereichen wiedergibt ; 

Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Phon mit nachgelagerten Koartikualtions- 
bereichen wiedergibt und eventuell vom Konka- 
tenationsverf ahren (z.B. Crossfade) benotigte 
zusatzliche Bereiche enthalt; 

Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Phon mit vorgelagerten Koartikualtions- 
bereichen wiedergibt und eventuell vom Konka- 
tenationsverf ahren (z.B. Crossfade) benotigte 
zusatzliche Bereiche enthalt; 

Strukturen von erf indungsgemaBen Audiosegmenten, 
das ein Polyphon mit jeweils nachgelagerten Ko- 
artikualtionsbereichen wiedergeben; 
Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Polyphon mit jeweils vorgelagerten Koar- 
tikualtionsbereichen wiedergibt; 

Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Polyphon mit jeweils nachgelagerten Ko- 
artikualtionsbereichen wiedergibt und eventuell 
vom Konkatenationsverf ahren (z.B. Crossfade) be- 
notigte zusatzliche Bereiche enthalt; 
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Figur 2i: 



Figur 2j 



Figur 2k: 



10 



Struktur eines erf indungsgemaBen Audiosegmentes, 
das ein Polyphon mit jeweils vorgelagerten Koar- 
tikualtionsbereichen wiedergibt und eventuell 
vom Konkatenationsverf ahren (z.B. Crossfade) be- 
notigte zusatzliche Bereiche enthalt; 
Struktur en von erf indungsgemaBen Audiosegmenten, 
das einen Teil eines Phons oder Phone vom Anfang 
einer Phonfolge wiedergeben; 

Struktur eines erf indungsgemaBen Audiosegmentes, 
das Phone vom Ende einer Phonfolge wiedergibt; 




Figur 3a: 
Figur 3b: 



15 



20 



Figur 3c: 




Figur 3d: 



30 



Figur 3e: 



35 



Konkatenation gemaB dem Stand der Technik am 
Beispiel zweier Audiosegmente ; 

Konkatenation gemaB dem erf indungsgemaBen Ver- 
fahren am Beispiel zweier Audiosegmente, die je 
ein Phon mit nachgelagerten Koartikulationsbe- 
reichen enthalten, mittels eines Crossfades 
(Fig. 3bl) und eines Hardfades (Fig- 3bII) , wo- 
bei das erste Phon vom Anfang einer Lauteinhei- 
tenfolge stammt; 

Konkatenation gemaB dem erf indungsgemaBen Ver- 
fahren am Beispiel zweier Audiosegmente, die je 
ein Phon mit nachgelagerten Koartikulationsbe- 
reichen enthalten, mittels eines Crossfades 
(Fig. 3d) und eines Hardfades (Fig. 3cII) ; 
Konkatenation gemaB dem erf indungsgemaBen Ver- 
fahren am Beispiel zweier Audiosegmente, die je 
ein Phon mit vorgelagerten Koartikulationsberei- 
chen enthalten, mittels eines Crossfades (Fig. 
3dl) und eines Hardfades (Fig. 3dII) ; 
Konkatenation gemaB dem erf indungsgemaBen Ver- 
fahren am Beispiel zweier Audiosegmente, die je 
ein Phon mit nachgelagerten Koartikulationsbe- 
reichen enthalten, mittels eines Crossfades 
(Fig. 3el) und eines Hardfades (Fig. 3eII) , wo- 
bei das erste Phon vom Ende einer Lauteinheiten- 
folge stammt; und 
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Figur 4: Schematische Darstellung der Schritte eines 

erf indungsgemafien Verfahrens zur Erzeugung 
synthetisierter akustischer Daten. 

Die im folgenden benutzten Bezugszeichen beziehen sich auf die 
Figur 1 und die im folgenden fur die verschiedenen Verfahrens- 
schritte benutzten Nummern beziehen sich auf die Figur 4. 

Urn mit Hilfe der Erfindung beispielsweise einen Text in synthe- 
tisierte Sprache umzuwandeln , ist es notwendig in einem vorge- 
lagerten Schritt diesen Text in eine Folge von Phonemen unter 
Verwendung bekannter Verfahren oder Vorrichtungen zu untertei- 
len. Vorzugsweise sind auch dem Text entsprechende prosodische 
Inf ormationen zu erzeugen. Die Phonemfolge sowie die prosodi- 
schen Inf ormationen dienen als EingabegroBen fiir das erfin- 
dungsgemaBe Verfahren bzw. die erf indungsgemaBe Vorrichtung. 

Die zu synthetisierenden Phoneme werden einer Eingabeeinheit 
101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten 
zugefiihrt und in einer ersten Speichereinheit 103 abgelegt 
(siehe Figur 1) . Mit Hilfe einer Auswahleinrichtung 103 werden 
aus einem Audiosegmente (Elemente) enthaltenden Inventar, das 
in einer Datenbank 107 gespeichert ist, die Audiosegmente 
ausgewahlt, die Phone oder Teile von Phonen wiedergeben, die 
den einzelnen eingegebenen Phonemen oder Teilen davon entspre- 
chen und in einer Reihenfolge, die der Reihenfolge der eingege- 
benen Phoneme entspricht, in einer zweiten Speichereinheit 104 
gespeichert . Falls das Inventar Polyphone wiedergebende Audio- 
segmente enthalt, so wahlt die Auswahleinrichtung 103 vorzugs- 
weise die Audiosegmente aus, die die langsten Polyphone wieder- 
geben, die einer Folge von Phonemen aus der eingegebenen Pho- 
nemfolge entsprechen . 

Stellt die Datenbank 107 ein Inventar mit Audiosegmenten unter- 
schiedlicher Arten zur Verfiigung, so wahlt die Auswahleinrich- 
tung 103 vorzugsweise die langsten Audiosegmente aus, die den 
Phonemfolgen oder Teilen davon entsprechen, urn die eingegebene 
Phonemfolge und/oder eine Folge von Phonemen aus einer minima- 
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len Anzahl von Audiosegmenten zu synthetisieren . Hierbei ist es 
vorteilhaft, verkettete Phone als Inventarelemente zu verwen- 
den, die aus einem zeitlich vorgelagerten statischen Phon unci 
einem zeitlich nachgelagerten dynamischen Phon bestehen. So 
entstehen Inventarelemente, die aufgrund der Einbettung der 
dynamischen Phone immer mit einem statischen Phon beginnen. 
Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei 
Konkatenationen solcher Inventarelemente, da hierfvir nur Cross- 
fades benotigt werden. 

Um eine koartikulationsgerechte Konkatenation der zu verketten- 
den Audiosegmente zu erzielen, werden mit Hilfe einer Konka- 
tenationseinrichtung 111 die Konkatenationsmomente zweier 
auf einanderf olgender Audiosegmente wie folgt festgelegt: 

- Soil ein Audiosegment zu Synthetisierung des Anfanges der 
eingegebenen Phonemfolge (Schritt 1) verwendet werden, so ist 
aus dem Inventar ein Audiosegment zu wahlen, das einen Wortan- 
fang wiedergibt und mit einem zeitlich nachgelagerten Audioseg- 
ment zu verketten (siehe Figur 3b und Schritt 3 in Figur 4) • 

- Bei der Konkatenation eines zweiten Audiosegmentes an ein 
zeitlich vorgelagertes erstes Audiosegment ist zu unterschei- 
den, ob das zweite Audiosegment mit einem statischen Phon oder 
einem dynamischen Phon beginnt, um die Wahl des Momentes der 
Konkatenation entsprechend zu treffen (Schritt 6) . 

- Beginnt das zweite Audiosegment mit einem statischen Phon, 
wird die Konkatenation in Form eines Crossfades durchgef uhrt , 
wobei der Moment der Konkatenation im zeitlich hinteren Bereich 
des ersten Audiosegmentes und im zeitlich vorderen Bereich des 
zweiten Audiosegmentes gelegt wird, wodurch sich diese beiden 
Bereiche bei der Konkatenation uberlappen oder wenigstens 
unmittelbar aneinandergrenzen (siehe Figuren 3c und 3d, Konka- 
tenation mittels Crossfade) . 

- Beginnt das zweite Audiosegment mit einem dynamischen Phon, 
wird die Konkatenation in Form eines Hardfades durchgef uhrt , 
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wobei der Moment der Konkatenation zeitlich unmittelbar hinter 
der zeitlich hinteren Bereich des ersten Audiosegmentes und 
zeitlich unmittelbar vor dem zeitlich vorderen Bereich des 
zweiten Audiosegmentes gelegt wird (siehe Figuren 3c und 3d, 
Konkatenation mittels Hardfade) . 

Auf diese Weise konnen aus diesen urspriinglich verfiigbaren 
Audiosegmenten, die Phone Oder Polyphone wiedergeben, neue 
Polyphone wiedergebende Audiosegmente erzeugt werden, die mit 
einem statischen Phon beginnen. Dies erreicht man, indem Audio- 
segmente, die mit einem dynamischen Phon beginnen, zeitlich 
nachgelagert mit Audiosegmenten, die mit einem statischen Phon 
beginnen, verkettet werden. Dies vergroiSert zwar die Zahl der 
Audiosegmente bzw. den Umfang des Inventars, kann aber bei der 
Erzeugung synthetisierter Sprachdaten einen rechentechnischen 
Vorteil darstellen, da weniger einzelne Konkatenationen zur 
Erzeugung einer Phonemfolge erf orderliche sind und Konkate- 
nationen nur noch in Form eines Crossfades durchgefuhrt werden 
mussen. Vorzugsweise werden die so erzeugten neuen verketteten 
Audiosegmente der Datenbank 107 oder einer anderen Speicherein- 
heit 113 zugefuhrt. 

Ein weiterer Vorteil dieser Verkettung der urspriingliche Audio- 
segmente zu neuen langeren Audiosegmenten ergibt sich, wenn 
sich beispielsweise eine Folge von Phonemen in der eingegebenen 
Phonemfolge haufig wiederholt. Dann kann auf eines der neuen 
entsprechend verketteten Audiosegmente zurilckgegrif f en werden 
und es ist nicht notwendig, bei jedem Auftreten dieser Folge 
von Phonemen eine erneute Konkatenation der urspriinglich vor- 
handenen Audiosegmente durchzuf iihren . Vorzugsweise sind bei der 
Speicherung solcher verketteten Audiosegmente auch ubergreifen- 
de Koartikulationsef f ekte zu erfassen bzw. spezifische Koarti- 
kulationsef f ekte in Form zusatzlicher Daten dem gespeicherten 
verketteten Audiosegment zuzuordnen . 

Soil ein Audiosegment zu Synthetisierung des Endes der eingege- 
benen Phonemfolge verwendet werden, so ist aus dem Inventar ein 
Audiosegment zu wahlen, das ein Wortende wiedergibt und mit 
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einem zeitlich vorgelagertes Audiossegment zu verketten (siehe 
Figur 3e und Schritt 8 in Figur 4) . 

Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert 
5 gespeichert, wobei die kodierte Form der Audiosegmente neben 

der Wellenform des jeweiligen Audiosegmentes angibt, welche(s) 
Phon(e) das jeweilige Audiosegment wiedergibt, welche Art der 
Konkatenation (z.B. Hardfade, linearer oder exponentieller 
Crossfade) mit welchem zeitlich nachf olgenden Audiosegment 

10 durchzuf uhren ist und zu welchem Moment die Konkatenation mit 
welchem zeitlich nachf olgenden Audiosegment stattfindet. Vor- 

^ zugsweise enthalt die kodierte Form der Audiosegmente auch 

V Inf ormationen beziiglich der Prosodie und ubergeordneten Koarti- 
kulationen, die bei einer Synthetisierung der gesamten vom 

15 Sprecher aufgenommene Phonemfolge und/oder Folgen von Phonem 

verwendet werden, urn eine zusatzliche Verbesserung der Sprach- 
qualitat zu erzielen. 



Bei der Wahl der Audiosegmente zur Synthetisierung der eingege- 
20 benen Phonemfolge werden als zeitlich nachgelagerte Audioseg- 
mente solche gewahlt, die den Eigenschaf ten der jeweils 
zeitlich vorgelagerten Audiosegmente, d.h. Konkatenationsart 
und Konkatenationsmoment , entsprechen. Nachdem die der Phonem- 
. folge entsprechenden Audiosegmente aus der Datenbank 107 ge- 

B wahlt wurden, erfolgt die Verkettung zweier auf einanderf ol- 
^ gender Audiosegmente mit Hilfe der Konkatenat ionseinrichtung 

111 f olgendermaBen. Es wird die Wellenform, die Konkatenations- 
art und der Konkatenationsmoment des ersten Audiosegmentes und 
des zweiten Audiosegmentes aus der Datenbank (Figur 3a und 
30 Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben 

erwahnten Wahl der Audiosegmente solche Audiosegmente gewahlt, 
die hinsichtlich ihrer Konkatenationsart und ihres Konkatenati- 
onsmoment zu einander passen. In diesem Fall ist das Laden der 
Inf ormationen beziiglich der Konkatenationsart und des Konka- 
35 tenationsmomentes des zweiten Audiosegmentes ist nicht mehr 
notwendig. 
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Zur Konkatenation der beiden Audiosegmente werden die Wellen- 
form des ersten Audiosegmentes in einem zeitlich hinteren 
Bereich und die Wellenform des zweiten Audiosegmentes in einem 
zeitlich vorderen Bereich jeweils mit einer geeigneten Gewich- 
5 tungsf unktion multipliziert (siehe Figur 3a, Schritt 12 und 
13) . Die Langen des zeitlich hinteren Bereiches des ersten 
Audiosegmentes und des zeitlich vorderen Bereiches des zweiten 
Audiosegmentes ergeben sich aus der Konkatenationsart und 
zeitlichen Lage des Konkatenationsmomentes , wobei diese Langen 
10 auch in der kodierten Form der Audiosegmente in der Datenbank 
gespeichert werden konnen. 

Sind die beiden Audiosegmente mit einem Crossfade zu verketten, 
werden diese entsprechend dem jeweiligen Konkatenationsmoment 
iiberlappend addiert (siehe Figuren 3c und 3d, Schritt 15) . 
Vorzugsweise ist hierbei ein linearer symmetr ischer Crossfade 
zu verwenden, es kann aber auch jede andere Art eines Crossfa- 
des eingesetzt werden. Ist eine Konkatenation in Form eines 
Hardfades durchzuf uhren , werden die beiden Audiosegmente nicht 
Iiberlappend hintereinander verbunden (siehe Figur 3c und 3d, 
Schritt 15) • Wie in Figur 3d zu sehen ist, werden hierbei die 
beiden Audiosegmente zeitlich unmittelbar hintereinander ange- 
ordnet. Um die so erzeugten synthetisierten Sprachdaten weiter- 
verarbeiten zu konnen, werden diese vorzugsweise in einer 
dritten Speichereinheit 115 abgelegt. 

Fur die weitere Verkettung mit nachf olgenden Audiosegmenten 
werden die bisher verketteten Audiosegmente als erstes Audio- 
segment betrachtet (Schritt 16) und der oben beschriebenen 
30 Verke ttungspr o z eB solange wiederholt, bis die gesamte Phonem- 
folge synthetisiert wurde. 




Zur Verbesserung der Qualitat der synthetisierten Sprachdaten 
sind vorzugsweise auch die prosodischen Inf ormationen, die 
35 zusatzlich zu der Phonemfolge eingegeben werden, bei der Ver- 
kettung der Audiosegmente zu beriicksichtigen . Mit Hilfe bekann- 
ter Verfahren kann die Frequenz, Dauer und Amplitude der 
Audiosegmente vor und/oder nach deren Konkatenation so veran- 
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dert werden, daft die synthetisierten Sprachdaten eine natiirli- 
che Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder 
18) . Hierbei ist es zu bevorzugen, Konkatenationsmomente an 
Nullstellen der Audiosegmente zu wahlen. 

5 

Urn die Ubergange zwischen zwei aufeinander folgenden Audioseg- 
menten zu optimieren, ist zusatzlich die Anpassung der Frequen- 
zen, Dauer und Gesamtamplituden sowie von Amplituden in 
verschiedenen Frequenzbereichen der beiden Audiosegmente im 
10 Bereich des Konkatenationsmomentes vorgesehen. Des weiteren 

erlaubt es die Erfindung, auch ubergeordnete akustische Phano- 
mene einer realen Sprache, wie z.B. ubergeordnete Koartikulati- 
onseffekte oder Sprachstil (u.a. Flustern, Betonung, 
Gesangsstimme oder Falsett) bei der Synthetisierung der Phonem- 
15 folgen zu beriicksichtigen. Hierfur werden Inf ormationen, die 

solche ubergeordnete Phanomene betreffen, zusatzlich in kodier- 
ter Form mit den entsprechenden Audiosegmenten gespeichert, um 
so bei der Auswahl der Audiosegmente nur solche zu wahlen, die 
den ubergeordneten Koartikulationseigenschaf ten der zeitlich 
20 vor- und/oder nachgelagerten Audiosegmente entsprechen. 

Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise 
eine Form, die es unter Verwendung einer Ausgabeeinheit 117 
erlaubt, die Sprachdaten in akustische Sprachsignale umzuwan- 
deln und die Sprachdaten und/oder Sprachsignale auf einem 
akustischen, optischen oder elektrischen Datentrager zu spei- 
chern (Schritt 19) . 

Mit dieser Erfindung ist es erstmals moglich synthetisierte 
30 Sprachsignale durch eine koartikulationsgerechte Konkatenation 
einzelner Audiosegmente zu erzeugen, da der Moment der Konka- 
tenation in Abhangigkeit der jeweils zu verkettenden Audioseg- 
mente gewahlt wird. Auf diese Weise kann eine synthetisierte 
Sprache erzeugt werden, die vom einer natiirlichen Sprache nicht 
35 mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren 
oder Vorrichtungen werden die hier verwendeten Audiosegmente 
nicht durch ein Einsprechen ganzer Worte erzeugt, um eine 
authentische Sprachqualitat zu gewahrleisten . Daher ist es mit 
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dieser Erfindung moglich, synthetisierte Sprache beliebigen 
Inhalts in der Qualitat einer real gesprochenen Sprache zu 
erzeugen. 

Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrie- 
ben wurde, ist die Erfindung nicht auf den Bereich der synthe- 
tisierten Sprache beschrankt, sondern kann zu Synthetisierung 
beliebiger akustischer Daten verwendet werden. Daher ist diese 
Erfindung auch fur eine Erzeugung und/oder Bereitstellung von 
synthetisierten Sprachdaten und/oder Sprachsignale fur beliebi- 
ge Sprachen oder Dialekte sowie zur Synthese von Musik einsetz- 
bar . 
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Patentanspruche 



1. Verfahren zur Erzeugung synthetisierter akustischer Daten, 
die aus einer Folge von Lauteinheiten bestehen, durch Konka- 
tenation von Audiosegmenten, mit folgenden Schritten: 

- Auswahl von wenigstens zwei Audiosegmenten, die Lauteinheiten 
wiedergeben, aus einer Datenbank zu synthetisierender akusti- 
scher Daten, dadurch gekennzeichnet , daB 

- jedes Audiosegment wenigstens einen Solo-Artikulationsbereich 
aufweist, und 

- der Moment der Konkatenation eines Anfangs eines verwendeten 
Teiles eines zweiten Audiosegmentes mit dem Ende eines verwen- 
deten Teiles eines ersten Audiosegment in Abhangigkeit von 
Eigenschaf ten des verwendeten Teiles des zweiten Audiosegmentes 
in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem 
verwendeten Teil des zweiten Audiosegmentes beginnt und nach 
dem zeitlich ersten verwendeten Solo-Artikulationsbereich des 
verwendeten Teiles des zweiten Audiosegmentes endet. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, da/3 fur 
die Erzeugung der synthetisierten akustischen Daten, die einer 
ersten Lauteinheit am Anfang der Lauteinheitenf olge entspre- 
chen, ein solches Audiosegment ausgewahlt wird, dessen zeitlich 
vorderer Bereich des verwendeten Teiles des Audiosegmentes die 
Eigenschaf ten des Anfangs der Lauteinheitenf olge aufweist. 

3. Verfahren nach einem der Ansprliche 1 oder 2, dadurch gekenn- 
zeichnet, daB der Moment der Konkatenation des zweiten Audio- 
segmentes mit dem ersten Audiosegment so gewahlt wird, daB er 
in der Umgebung der Grenzen des ersten verwendeten Solo-Artiku- 
lationsbereiches des verwendeten Teiles des zweiten Audioseg- 
mentes liegt, wenn der verwendete Teil des zweiten Audiosegmen- 
tes mit einer statischen Lauteinheit beginnt, wobei ein 
zeitlich hinterer Bereich des verwendeten Teiles des ersten 
Audiosegmentes und ein zeitlich vorderer Bereich des verwende- 
ten Teiles des zweiten Audiosegmentes gewichtet und danach 
beide Bereiche addiert werden (Crossfade) , wobei die Lange 
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eines Uberlappungsbereiches der beiden Bereiche in Abhangigkeit 
der zu synthetisierenden akustischen Daten bestimmt wird. 

4. Verfahren nach einem der Anspriiche 1 bis 3, dadurch gekenn- 
zeichnet, daB der Moment der Konkatenation des zweiten Audio- 
segmentes mit dem ersten Audiosegment so gewahlt wird, daB er 
zeitlich unmittelbar vor dem verwendeten Teil des zweiten 
Audiosegmentes liegt, wenn der verwendete Teil des zweiten 
Audiosegmentes mit einer dynamischen Lauteinheit beginnt, wobei 
ein zeitlich hinterer Bereich des verwendeten Teiles des ersten 
Audiosegmentes und ein zeitlich vorderer Bereich des verwende- 
ten Teiles des zweiten Audiosegmentes gewichtet werden 
(Hardfade) . 

5. Verfahren nach einem der Anspriiche 1 bis 4, dadurch gekenn- 
zeichnet, daB fur die Erzeugung der synthetisierten akustischen 
Daten, die einer letzten Lauteinheit am Ende der Lauteinheiten- 
folge entsprechen, ein solches Audiosegment ausgewahlt wird, 
dessen zeitlich hinterer Bereich des verwendeten Teiles des 
Audiosegmentes die Eigenschaf ten des Endes der Lauteinheiten- 
folge aufweist. 

6. Verfahren nach Anspruch 4, dadurch gekennzeichnet , daB 
weitere Audiosegmente dadurch gebildet werden, indem Audioseg- 
mente, deren verwendeter Teil mit einer dynamischen Lauteinheit 
beginnt, oder eine Folge von Audiosegmenten, deren verwendete 
Teile mit dynamischen Lauteinheiten beginnen, mit wenigstens 
einem zeitlich vorgelagerten Audiosegment, dessen verwendeter 
Teil mit einer statischen Lauteinheit beginnt, verkettet wer- 
den. 

7. Verfahren nach einem der Anspriiche 1 bis 6, dadurch gekenn- 
zeichnet, daB die zu synthetisierenden Sprachdaten in Gruppen 
von auf einanderf olgenden Lauteinheiten zusammengef aBt werden, 
die jeweils durch ein einzelnes Audiosegment beschrieben wer- 
den. 
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8* Verfahren nach einem der Anspriiche 1 bis 7, dadurch gekenn- 
zeichnet, da3 bei der Konkatenation eines zweiten Audiosegmen- 
tes mit einem ersten Audiosegment aus der Datenbank fiir das 
zweite Audiosegment ein Audiosegment gewahlt wird, das die 
5 meisten auf einanderf olgenden Lauteinheiten der zu synthetisier- 
enden Daten wiedergibt, urn bei der Erzeugung der synthetisier- 
ten Daten die minimale Anzahl von Audiosegmenten zu verwenden. 

9. Verfahren nach einem der Anspriiche 1 bis 8, dadurch gekenn- 
zeichnet, da6 eine Variation der Frequenz, der Dauer und der 
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente 
sowie deren Amplitude in verschiedenen Frequenzbereichen in 
Abhangigkeit von Eigenschaf ten der Lauteinheitenf olge durchge- 
fuhrt wird. 

10. Verfahren nach einem der Anspriiche 1 bis 9, dadurch gekenn- 
zeichnet, da£ eine Variation der Frequenz, der Dauer und der 
Gesamtamplitude der verwendeten Telle einzelner Audiosegmente 
sowie deren Amplitude in verschiedenen Frequenzbereichen in 
einem Bereich durchgefuhrt wird, in dem der Moment der Konka- 
tenation liegt . 

11. Verfahren nach einem der Anspriiche 1 bis 10, dadurch ge- 
kennzeichnet, daB der Moment der Konkatenation bei einer Null- 
stelle in den verwendeten Teilen des ersten und/oder des 
zweiten Audiosegmentes gewahlt wird. 

12. Verfahren nach einem der Anspriiche 1 bis 11, dadurch ge- 
kennzeichnet, daS die Auswahl der verwendeten Teile einzelner 

30 Audiosegmente, deren Variation sowie deren Konkatenation zu- 
satzlich unter Verwendung heuristischen Wissens durchgefuhrt 
wird, das durch ein zusatzlich durchgef iihrtes heuristisches 
Verfahren gewonnen wird. 

35 13. Verfahren nach einem der Anspriiche 1 bis 12, dadurch ge- 
kennzeichnet , daB eine Umwandlung der synthetisierten akusti- 
schen Daten in akustische Signale durchgefiihrt wird. 
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14. Verfahren nach einem der Anspriiche 1 bis 13, dadurch ge- 
kennzeichnet, daB die synthetisierten akustischen Daten auf 
einem Datentrager gespeichert werden. 

15. Verfahren einem der Anspriiche 1 bis 14, dadurch gekenn- 
zeichnet, daB 

- die zu synthetisierenden akustischen Daten Sprachdaten und 
die Lauteinheiten Phone sind, 

- die statischen Lauteinheiten Vokale, Diphtonge, Liquide, 
Vibranten, Frikative und Nasale umfassen, und 

- die dynamischen Lauteinheiten Plosive, Affrikate, Glottal- 
stops und geschlagenen Laute umfassen. 

16. Vorrichtung zur Erzeugung synthetisierter akustischer 
Daten, die aus einer Folge von Lauteinheiten bestehen, durch 
Konkatenation von Audiosegmenten, mit: 

- einer Datenbank, in der die Audiosegmente der zu synthetisie- 
render Daten gespeichert sind, 

- einer Einrichtung zur Auswahl von wenigstens zwei die Lau- 
teinheiten wiedergebenden Audiosegmenten aus der Datenbank, und 

- einer Einrichtung zur Konkatenation der Audiosegmente, da- 
durch gekennzeichnet , daB 

- die Datenbank Audiosegmente enthalt, die wenigstens einen 
Solo-Artikulationsbereich aufweisen, und 

- die Konkatenationeinrichtung geeignet ist, den Moment der 
Konkatenation eines Anfangs eines verwendeten Teils eines 
zweiten Audiosegmentes mit dem Ende eines verwendeten Teils 
eines ersten Audiosegmentes in Abhangigkeit von Eigenschaf ten 
des verwendeten Teils des zweiten Audiosegmentes in einen 
Bereich zu legen, der zeitlich unmittelbar vor dem verwendeten 
Teil des zweiten Audiosegmentes beginnt und nach dem zeitlich 
ersten verwendeten Solo-Artikulationsbereich des verwendeten 
Teils des zweiten Audiosegmentes endet. 

17. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daB 
die Datenbank Audiosegmente enthalt, deren verwendete Teile am 
Anfang einer Lauteinheitenf olge auftretende Lauteinheiten 
wiedergeben . 
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18. Vorrichtung nach einem der Anspruche 16 oder 17, dadurch 
gekennzeichnet, da3 die Konkatenationeinrichtung zusatzlich 
umf aSt : 

- Einrichtungen zur Konkatenation eines ersten Audiosegmentes 
mit einem zweiten Audiosegment, dessen verwendeter Teil mit 
einer statischen Lauteinheit beginnt, im Bereich der Grenzen 
des ersten verwendeten Solo-Artikulationsbereiches des verwen- 
deten Teils des zweiten Audiosegmentes, 

- Einrichtungen zur Gewichtung eines zeitlich hinteren Berei- 
ches des verwendeten Teils des ersten Audiosegmentes und eines 
zeitlich vorderen Bereiches des verwendeten Teils des zweiten 
Audiosegmentes , und 

- Einrichtungen zur Addition der beiden Bereiche. 

19. Vorrichtung nach einem der Anspruche 16 bis 18, dadurch 
gekennzeichnet , da!3 die Konkatenationeinrichtung zusatzlich 
umf aBt : 

- Einrichtungen zur Konkatenation eines ersten Audiosegmentes 
mit einem zweiten Audiosegment, dessen verwendeter Teil mit 
einer dynamischen Lauteinheit beginnt, zeitlich unmittelbar vor 
dem verwendeten Teil des zweiten Audiosegmentes, und 

- Einrichtungen zur Gewichtung eines zeitlich hinteren Berei- 
ches des verwendeten Teil des ersten Audiosegmentes und eines 
zeitlich vorderen Bereiches des verwendeten Teil des zweiten 
Audiosegmentes . 

20. Vorrichtung nach einem der Anspruche 16 bis 19, dadurch 
gekennzeichnet, daB die Datenbank Audiosegmente enthalt, deren 
verwendete Teile am Ende einer Lauteinheitenf olge auftretende 
Lauteinheiten wiedergeben. 

21. Vorrichtung nach einem der Anspruche 16 bis 22, dadurch 
gekennzeichnet, daB die Datenbank eine Gruppe von Audiosegmen- 
ten enthalt, deren verwendete Teile mit einer statischen Lau- 
teinheit beginnen. 
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22. Vorrichtung nach einem der Anspruche 16 bis 21, dadurch 
gekennzeichnet, daB die Konkatenationseinrichtung zusatzlich 
uinf afit : 

- eine Einrichtung zur Erzeugung weiterer Audiosegmente durch 
Konkatenation von Audiosegmenten, deren verwendete Teile mit 
einer statischen Lauteinheit beginnen, mit zeitlich nachgela- 
gerten Audiosegmenten, deren verwendete Teile mit einer dynami- 
schen Lauteinheit beginnen, und 

- eine Einrichtung, die die weiteren Audiosegmente der Daten- 
bank oder der Auswahleinr ichtung zufuhrt. 

23. Vorrichtung nach einem der Anspruche 16 bis 22, dadurch 
gekennzeichnet, daB die Datenbank eine Gruppe von Audiosegmen- 
ten enthalt, die jeweils eine Folge von Lauteinheiten wiederge- 
ben. 

24. Vorrichtung nach einem der Anspruche 16 bis 23, dadurch 
gekennzeichnet, daft die Auswahleinrichtung geeignet ist, bei 
der Auswahl der Audiosegmente aus der Datenbank, die Audioseg- 
mente auszuwahlen, die die meisten auf einanderf olgenden Lau- 
teinheiten der zu synthetisierenden Daten wiedergeben, um bei 
der Erzeugung der synthetisierten Daten die minimal Anzahl von 
Audiosegmenten zu verwenden . 

25. Vorrichtung nach einem der Anspruche 16 bis 24, dadurch 
gekennzeichnet, da/5 die Konkatenationseinrichtung zusatzlich 
eine Einrichtung zur Variation der Frequenz , der Dauer und der 
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente 
sowie deren Amplitude in verschiedenen Frequenzbereichen in 
Abhangigkeit von Eigenschaf ten der Lauteinheitenf olge umfaBt. 

26. Vorrichtung nach einem der Anspruche 16 bis 25, dadurch 
gekennzeichnet, daft die Konkatenationseinrichtung zusatzlich 
eine Einrichtung zur Variation der Frequenz, der Dauer und der 
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente 
sowie deren Amplitude in verschiedenen Frequenzbereichen in 
einem Bereich durchgefuhrt wird, in dem der Moment der Konka- 
tenation liegt, umfafit. 
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27. Vorrichtung nach einem der Anspriiche 16 bis 26, dadurch 
gekennzeichnet, daB die Konkatenationseinr ichtung zusatzlich 
eine Einrichtung zur Auswahl des Momentes der Konkatenation bei 
einer Nullstelle in den verwendeten Teilen des ersten und/oder 
des zweiten Audiosegmentes aufweist. 

28. Vorrichtung nach einem der Anspriiche 16 bis 27, dadurch 
gekennzeichnet, daB die Auswahleinr ichtung zusatzlich eine 
Einrichtung zur Implementation heuristischen Wissens umfaBt, 
das die Auswahl der einzelnen Audiosegmente, deren Variation 
sowie die Konkatenation der Audiosegmente betrifft. 

29. Vorrichtung nach einem der Anspriiche 16 bis 28, dadurch 
gekennzeichnet, daB zusatzlich Einrichtungen zur Umwandlung der 
synthetisierten akustischen Daten in akustische Signale vorge- 
sehen sind. 

30. Vorrichtung nach einem der Anspriiche 16 bis 29, dadurch 
gekennzeichnet, daB zusatzlich Einrichtungen zur Speicherung 
der synthetisierten akustischen Daten auf einem Datentrager 
vorgesehen sind. 

31. Vorrichtung nach einem der Anspriiche 16 bis 30, dadurch 
gekennzeichnet, daB 

- die Datenbank Audiosegmente enthalt, die jeweils wenigstens 
einen Teil eines Phons wiedergeben, wobei eine statische Lau- 
teinheit Vokale, Diphtonge, Liquide, Vibranten, Frikative und 
Nasale umfaBt und 

eine dynamische Lauteinheit Plosive, Affrikate, Glottalstops 
und geschlagene Laute umfaBt, und 

- die Konkatenationseinrichtung geeignet ist, die Audiosegmente 
zu synthetisierten Sprachdaten zu verketten. 

32. Synthetisierte Sprachsignale, die aus einer Folge von 
Phonen bestehen, wobei die Sprachsignale erzeugt werden, indent: 

- wenigstens zwei die Phone wiedergebende Audiosegmente aus 
einer Datenbank ausgewahlt werden, und 
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- die Audiosegmente durch eine Konkatenation verkettet werden, 
wobei 

- jedes Audiosegment wenigstens einen Solo-Artikulationsbereich 
aufweist, und 

- der Moment der Konkatenation des Anfangs eines verwendeten 
Teiles eines zweiten Audiosegementes mit dem Ende eines verwen- 
deten Teiles eines ersten Audiosegmentes in Abhangigkeit von 
Eigenschaften des verwendeten Teiles des zweiten Audiosegmentes 
in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem 
verwendeten Teil des zweiten Audiosegmentes beginnt und nach 
dem zeitlich ersten verwendeten Solo-Artikulationsbereich des 
verwendeten Teiles des zweiten Audiosegementes endet. 

33. Synthetisierte Sprachsignale nach Anspruch 32, dadurch 
gekennzeichnet, dafc das erste Phon in der Phonfolge durch ein 
Audiosegment erzeugt wird, dessen verwendeter Teil einen zeit- 
lich vorderen Bereich hat, der die Eigenschaften des Anfangs 
der Phonfolge aufweist. 

34. Synthetisierte Sprachsignale nach einem der Anspriiche 32 
Oder 33, dadurch gekennzeichnet, dafc die Sprachsignale erzeugt 
werden , indem 

- das erste Audiosegment und das zweite Audiosegment zu einem 
Moment konkateniert werden, der in der Umgebung der Grenzen des 
ersten verwendeten Solo-Artikulationsbereiches des verwendeten 
Teiles des zweiten Audiosegmentes liegt, wenn der verwendete 
Teil des zweite Audiosegment mit einem statischen Phon beginnt, 
wobei ein statischer Phon ein Vokal, ein Diphtong, ein Liquid, 
ein Frikativ, ein Vibrant oder ein Nasal sein kann, und 

- ein zeitlich hinterer Bereich des verwendeten Teiles des 
ersten Audiosegmentes und ein zeitlich vorderer Bereich des 
verwendeten Teiles des zweiten Audiosegmentes gewichtet und 
beide Bereiche addiert werden (Crossfade) . 
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35. Synthetisierte Sprachsignale nach einem der Anspriiche 32 
bis 34, dadurch gekennzeichnet , da/3 die Sprachsignale erzeugt 
werden , indem 

- das erste Audiosegment und das zweite Audiosegment zu einem 
Moment konkateniert werden, der zeitlich unmittelbar vor dem 
verwendeten Teil des zweiten Audiosegmentes liegt, wenn der 
verwendete Teil des zweiten Audiosegmentes mit einem dynami- 
schen Phon beginnt, wobei ein dynamischer Phon 

ein Plosiv, ein Affrikat, ein Glottalstop oder ein geschlagener 
Laut sein kann, und 

- ein zeitlich hinterer Bereich des verwendeten Teiles des 
ersten Audiosegmentes und ein zeitlich vorderer Bereich des 
verwendeten Teiles des zweiten Audiosegmentes gewichtet werden 
(Hardfade) . 

36. Synthetisierte Sprachsignale nach einem der Anspriiche 32 
bis 35, dadurch gekennzeichnet, daB das letzte Phon in der 
Phonfolge durch ein Audiosegment erzeugt wird, dessen verwende- 
ter Teil einen zeitlich hinteren Bereich hat, der die Eigen- 
schaften des Endes der Phonfolge aufweist. 

37. Synthetisierte Sprachsignale nach Anspruch 36, dadurch 
gekennzeichnet, daB die Sprachsignale durch eine Konkatenation 
eines ersten Audiosegmentes mit einem zweiten Audiosegment 
erzeugt werden, wobei der verwendete Teil des zweiten Audioseg- 
mentes einen mit einem statischen Phon beginnenden und zeitlich 
vorgelagerten Bereich und wenigstens einen dem verwendeten Teil 
zeitlich nachgelagerten Bereich umfaBt, der mit einem dynami- 
schen Phon beginnt. 

38. Synthetisierte Sprachsignale nach einem der Anspriiche 32 
bis 36, dadurch gekennzeichnet, daft die Sprachsignale durch 
Konkatenation von Audiosegmenten erzeugt werden, die Polyphone 
wiedergeben . 
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39. synthetisierte Sprachsignale nach einem der Anspruche 32 
bis 36, dadurch gekennzeichnet , daft zur Erzeugung der Sprachsi- 
gnale aus der Datenbank die Audiosegmente ausgewahlt werden, 
die die meisten zusammenhangenden Phone der Folge der Phone 
wiedergeben, urn bei der Erzeugung der Sprachsignale die minimal 
Anzahl von Audiosegmenten zu verwenden. 

40. Synthetisierte Sprachsignale nach einem der Anspruche 32 
bis 39, dadurch gekennzeichnet, daB die Sprachsignale durch 
Konkatenation der verwendeten Teile von Audiosegmenten erzeugt 
werden, deren Frequenz, Dauer und Gesamtamplitude sowie deren 
Amplituden in verschiedenen Frequenzbereichen in Abhangigkeit 
von Eigenschaften der Phonfolge variiert werden. 

41. Synthetisierte Sprachsignale einem der Anspruche 32 bis 40, 
dadurch gekennzeichnet, daB die Sprachsignale durch Konkatena- 
tion von Audiosegmenten erzeugt werden, deren Frequenz, Dauer, 
Gesamtamplitude und deren Amplituden in verschiedenen Frequenz- 
bereichen der jeweils verwendeten Teile der Audiosegmente in 
einem Bereich variiert werden, in dem der Moment der Konkatena- 
tion liegt. 

42. Synthetisierte Sprachsignale einem der Anspruche 3 2 bis 41, 
dadurch gekennzeichnet, daB der Moment der Konkatenation bei 
einer Nullstelle in den verwendeten Teilen des ersten und/oder 
des zweiten Audiosegmentes liegt. 

43. Synthetisierte Sprachsignale nach einem der Anspruche 32 
bis 42, dadurch gekennzeichnet, daB die Sprachsignale geeignet 
sind, in akustische Signale umgewandelt zu werden. 

44. Synthetisierte Sprachsignale nach den Anspruchen 32 bis 43, 
dadurch gekennzeichnet, daB die Sprachsignale geeignet sind, 
auf einem Datentrager gespeichert zu werden. 
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45. Datentrager, der ein Computerprogramm zur Erzeugung von 
synthetisierten akustischen Daten, die aus einer Folge von 
Lauteinheiten bestehen, durch Konkatenation von Audiosegmenten 
enthalt, wobei das Computerprogramm folgende Schritte ausfuhrt: 

- Auswahl von wenigstens zwei die Lauteinheiten wiedergebenden 
Audiosegmenten aus einer Datenbank zu synthetisierender akusti- 
scher Daten, und 

- Konkatenation der Audiosegmente, wobei 

- jedes Audiosegment wenigstens einen Solo-Koartikulationsbe- 
reich aufweist, und 

- der Moment der Konkatenation des Anfangs eines verwendeten 
Teiles eines zweiten Audiosegmentes mit dem Ende eines verwen- 
deten Teiles eines ersten Audiosegmentes in Abhangigkeit von 
Eigenschaften des verwendeten Teiles des zweiten Audiosegmentes 
in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem 
verwendeten Teil des zweiten Audiosegmentes beginnt und nach 
dem zeitlich ersten verwendeten Solo-Koartikulationbereich des 
verwendeten Teiles des zweiten Audiosegmentes endet. 

46. Datentrager nach Anspruch 45, dadurch gekennzeichnet , daB 
das Computerprogramm zur Erzeugung der synthetisierten akusti- 
schen Daten, die einer ersten Lauteinheit am Anfang der Lau- 
teinheitenfolge entsprechen, ein solches Audiosegment auswahlt, 
dessen verwendeter Teil einen zeitlich vorderen Bereich hat, 
der die Eigenschaften des Anfangs der Lauteinheitenf olge auf- 
weist. 

47. Datentrager nach einem der Anspruche 45 oder 46, dadurch 
gekennzeichnet, daB das Computerprogramm den Moment der Konka- 
tenation des zweiten Audiosegmentes mit dem ersten Audiosegment 
so wahlt, daB er in der Umgebung der Grenzen des ersten verwen- 
deten Solo-Artikulationsbereiches des verwendeten Teiles des 
zweiten Audiosegmentes liegt, wenn der verwendete Teil des 
zweiten Audiosegmentes mit einer statischen Lauteinheit be- 
ginnt, und einen zeitlich hinteren Bereich des verwendeten 
Teiles des ersten Audiosegmentes und einen zeitlich vorderen 
Bereich des verwendeten Teiles des zweiten Audiosegmentes 
wichtet und beide Bereiche addiert. 
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48. Datentrager nach einem der Anspruche 45 bis 47, dadurch 
gekennzeichnet, daB das Computerprogramm den Moment der Konka- 
tenation des zweiten Audiosegmentes mit dem ersten Audiosegment 
so wahlt, daB er zeitlich unmittelbar vor dem verwendeten Teil 
des zweiten Audiosegmentes liegt, wenn der verwendete Teil des 
zweiten Audiosegmentes mit einer dynamischen Lauteinheit be- 
ginnt, und einen zeitlich hinteren Bereich des verwendeten 
Teiles des ersten Audiosegmentes und einen zeitlich vorderen 
Bereich des verwendeten Teiles des zweiten Audiosegmentes 
wichtet. 

49. Datentrager nach einem der Anspruche 45 bis 48, dadurch 
gekennzeichnet, daB das Computerprogramm zur Erzeugung der 
synthetisierten akustischen Daten, die einer letzten Lautein- 
heit am Ende der Lauteinheitenf olge entsprechen, ein solches 
Audiosegment auswahlt, dessen verwendeter Teil einen zeitlich 
hinteren Bereich hat, der die Eigenschaf ten des Endes der 
Lauteinheitenf olge aufweist. 

50. Datentrager nach einem der Anspruche 45 bis 49, dadurch 
gekennzeichnet, daft das Computerprogramm bei der Konkatenation 
eines zweiten Audiosegmentes mit einem ersten Audiosegment aus 
der Datenbank fur das zweite Audiosegment ein Audiosegment 
wahlt, das die meisten auf einanderf olgenden Lauteinheiten der 
zu synthetisierenden Daten wiedergibt, urn bei der Erzeugung der 
synthetisierten Daten die minimal Anzahl von Audiosegmenten zu 
verwenden. 

51. Datentrager nach einem der Anspruche 4 5 bis 50, dadurch 
gekennzeichnet, daft das Computerprogramm eine Variation der 
Frequenz, Dauer und Gesamtamplitude der verwendeten Teile 
einzelner Audiosegmente und deren Amplituden in verschiedenen 
Frequenzbereichen in Abhangigkeit von Eigenschaf ten der Lau- 
teinheitenf olge durchfuhrt. 
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52. Datentrager nach einem der Anspruche 45 bis 51, dadurch 
gekennzeichnet, daS das Computerprogramm eine Variation der 
Frequenz, Dauer und Gesamtamplitude der verwendeten Teile 
einzelner Audiosegmente und deren Amplituden in verschiedenen 
Frequenzbereichen in einem Bereich durchfuhrt, in dem der 
Moment der Konkatenation liegt. 

53. Datentrager nach einem der Anspruche 45 bis 52, dadurch 
gekennzeichnet, da6 Computerprogramm den Moment der Konkatena- 
tion bei einer Nullstelle in den verwendeten Teilen des ersten 
und/oder des zweiten Audiosegmentes festlegt. 



54. Datentrager nach einem der Anspruche 45 bis 53, dadurch 
gekennzeichnet, daft das Computerprogramm eine Implementation 

15 von heuristischem Wissen durchfuhrt, das die Auswahl der ein- 
zelnen Audiosegmente, deren Variation sowie die Konkatenation 
der Audiosegmente betrifft. 

55. Datentrager nach einem der Anspruche 45 bis 54, dadurch 
gekennzeichnet, daft das Computerprogramm die synthetisierten 
akustischen Daten in akustische umwandelbare Daten umwandelt. 

56. Datentrager nach einem der Anspruche 45 bis 55, dadurch 
gekennzeichnet, daft das Computerprogramm die synthetisierten 
akustischen Daten auf einem Datentrager speichert. 

57. Datentrager nach einem der Anspruche 4 5 bis 56, dadurch 
gekennzeichnet, daft das Computerprogramm zur Erzeugung synthe- 
tisierter Sprachdaten geeignet ist, wobei die Lauteinheiten 
Phone sind, die statischen Lauteinheiten Vokale, Diphtonge, 
Liquide, Vibranten, Frikative und Nasale und die dynamischen 
Lauteinheiten Plosive, Affrikate, Glottalstops und geschlagene 
Laute umfassen. 

58. Akustischer, optischer oder elektrischer Datenspeicher , der 
Audiosegmente enthalt, die jeweils wenigstens einen Solo- 
Artikualtionsbereich aufweisen, urn durch eine Konkatenation von 
verwendeten Teile der Audiosegmente unter Verwendung des Ver- 
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fahrens nach Anspruch 1 oder der Vorrichtung nach Anspruch 16 
Oder des Datentragers nach Anspruch 4 5 synthetisierte akusti- 
sche Daten zu erzeugen. 

59. Datenspeicher nach Anspruch 58, dadurch gekennzeichnet, daB 
eine Gruppe der Audiosegmente Phone oder Teile von Phonen 
wiedergeben. 

60. Datenspeicher nach einem der Anspruche 58 oder 59, dadurch 
gekennzeichnet, daB eine Gruppe der Audiosegmente Polyphone 
wiedergeben. 

61. Datenspeicher nach einem der Anspruche 58 bis 60, dadurch 
gekennzeichnet, daft eine Gruppe von Audiosegmenten zur Verfu- 
gung gestellt wird, deren verwendete Teile mit einem statischen 
Phon beginnen, wobei die statischen Phone Vokale, Diphtonge, 
Liquide, Frikative, Vibranten und Nasale umfassen. 

62. Datenspeicher nach einem der Anspruche 58 bis 61, dadurch 
gekennzeichnet, daB Audiosegmente zur Verfugung gestellt wer- 
den, die geeignet sind in akustische Signale umgewandelt zu 
werden. 

63. Datenspeicher nach einem der Anspruche 58 bis 62, der 
zusatzlich Inf ormationen enthalt, urn eine Variation der Fre- 
quenz, Dauer und Gesamtamplitude der verwendeten Teile einzel- 
ner Audiosegmente und deren Amplituden in verschiedenen 
Frequenzbereichen in Abhangigkeit von Eigenschaf ten der zu 
synthetisierenden akustischen Daten durchzuf uhren . 

64. Datenspeicher nach einem der Anspruche 58 bis 63, der 
zusatzlich Inf ormationen enthalt, die eine Variation Frequenz, 
Dauer und Gesamtamplitude der verwendeten Teile einzelner 
Audiosegmente und deren Amplituden in verschiedenen Frequenzbe- 
reichen in einem Bereich betreffen, in dem der Moment der 
Konkatenation liegt . 
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65. Datenspeicher nach einem der Anspruche 58 bis 64, der 
zusatzlich verkettet Audiosegmente zur Verfugung stellt, deren 
Moment der Konkatenation bei einer Nullstelle der verwendeten 
Teile des ersten und/oder zweiten Audiosegmentes liegt. 

66. Datenspeicher nach einem der Anspruche 58 bis 65, der 
zusatzlich Inf ormationen in Form von heuristischem Wissen 
enthalt, die die Auswahl der einzelnen Audiosegmente, deren 
Variation sowie die Konkatenation der Audiosegmente betreffen. 

67. Tontrager, der Daten enthalt, die zumindest teilweise 
synthetisierte akustische Daten sind, die 

- mit dem Verfahren nach Anspruch 1, oder 

- mit der Vorrichtung nach Anspruch 16, oder 

- unter Verwendung des Datentragers nach Anspruch 45, oder 

- unter Verwendung des Datenspeichers nach Anspruch 58 
erzeugt wurden. 

68. Tontrager nach Anspruch 67, dadurch gekennzeichnet , daB die 
synthetisierten akustischen Daten synthetisierte Sprachdaten 
sind. 

69. Tontrager, der Daten enthalt, die zumindest teilweise 
synthetisierte akustische Daten sind, die synthetisierte 
Sprachsignale nach Anspruch 3 2 sind. 
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Zusammenf assung 
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15 



20 



Die Erfindung ermoglicht es, beliebige akustische Daten durch 
eine Konkatenation einzelner Audiosegmente zu synthetisieren, 
wobei die Momente, zu denen die jeweilige Konkatenation zweier 
aufeinander folgender Audiosegmente erfolgt, in Abhangigkeit 
von Eigenschaften der Audiosegmente festgelegt werden. Auf 
diese Weise konnen synthetisierte akustische Daten erzeugt 
werden, die sich nach einer Umwandlung in akustische Signale 
nicht von entsprechenden naturlich erzeugen akustischen Signa- 
len unterscheiden. Insbesondere erlaubt es die Erfindung, 
synthetisierte Sprachdaten unter Beriicksichtigung koartikulato- 
rischer Effekte durch Konkatenation einzelner Sprachsegmente zu 
erzeugen. Die so zur Verfiigung gestellten Sprachdaten konnen in 
Sprachsignale umgewandelt werden, die von einer naturlich 
gesprochenen Sprache nicht zu unterscheiden sind. 
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